[논문] Synthetic Data

synthetic data

Author

김보람

Published

March 24, 2023

A Comparison of Synthetic Data Approaches Using Utility and Disclosure Risk Measures

Deep generative model
Discolsure risk
Nonparametric Bayesian
Sequential regression
Synthetic data
Utility

Seongbin An, Trang Doan, Juhee Lee, Jiwwo Kim, Yong Jae Kim, Yunji Kim, Changwon Yoon, Sungkyu Jung, Dongha Kim, Sunghoon Kwon, Hang J Kim, Jeongyoun Ahn, Cheolwoo Park

The Korean Journal of Applied Statistics

서론

- 재현자료 생성기법

순차적 회귀분석
비모수 베이지안
인공지능 기반: CTGAN, TVAE

- 유용성 지표

. (대역 유용성):자료 전체의 분포적인 특성을 얼마나 비슷하게 유지 - Propensity Score, 거리측도, α-정밀도, β-wogusdbf

. (특정 유용성): 특정 분석이 데이터의 적용될 것을 가정하고 해당 분석에서 원본자료와 재현자료가 얼마나 유사한 결과를 나타내는지 기반으로 유용성 판단 - 신뢰구간 중첩

- 노출 위험도 지표

신원 노출 위험도
속성 노출 위험도
독창성 점수

Survey Est

2019년 전국 사업체 조사 데이터

이항형, 다항형, 연속형 변수

구분	변수명	변수설명
범주형	SEX	대표자 성별(남/여)
	SUMMAT_CD	매출 금액(9단계 범주)
연속형	WORKER_T	총 근로자수
	EMP_T	상용근로 종사자수
	BIS_MNTH	영업개월수

\[WORKER_T>=EMP_T\]

재현자료 생성기법

순차적 회귀모형

변수의 순서에 따라 결합분포의 추정값이 다르다.

\(X_j\) 범주형 \(\to\) 분류 의사결정나무 : 지니계수

\(X_j\) 수치형 \(\to\) 회귀 의사결정나무 : 엔트로피

베이지안

인공지능

재현자료의 평가 지표

Propensity Score Measure

Propensity Score: 공변량 X가 주어졌을 때 처리그룹으로 배치될 확률 \(Pr(Treatment = 1 | X)\)

재현자료로 배치되는 경우를 처리 그룹으로 배치되는 경우로 생각

\[ pMSE = \dfrac{1}{n_s+n_o}\sum_{i=1}^{n_s+n_o}(p̂_i-c)^2\]

재현자료의 유용성이 높을수록 \(pMSE\)는 0에 가까움

원본자료와 재현자료를 분포적으로 구분할 수 있는지 수치화
개별적 비교 필요 없이 변수의 관계성을 고려하여 평가 가능
분류 모델에 따라 \(pMSE\) 값이 달라지므로 귀무분포를 고려해야 함

분포간 거리 측도

원본자료와 재현자료에서 각 변수의 분포를 각각 계산하여 유용성 판단 가능
변수간의 상관성 고려 못함

- KL괴리도

Kullback-Leibler

\[ D(f||g) = \int_{-\infty}^{\infty}f(x) log \dfrac{f(x)}{g(x)}dx\]

- Wasser-stein 거리

\[ W_r(f,g) = (\int_{0}^{1} |F_f^{-1}(t) - F_g^{-1}(t)|^r)^{1/r} dt \]

신원 노출 위험도

Notation	설명
n	원본(재현)자료 관측치 개수
\(f_i\)	원본자료의 i번째 관측치에 대해 준식별자 값이 같은 관측치 개수
\(X_i\)	원본자료의 i번째 관측치의 민감 변수 값
\(P_i\)	원본자료에서 \(X_i\) 와 같은 값을 갖는 관측치의 비율
\(d_i\)	1-\(p_i\)
\(Y_i\)	원본자료의 i번째 관측치와 연결된 재현자료 민감 변수 값
\((d_i)'\)	원본자료에서 \(X_i\)가 속한 군집에 있는 관측치의 비율

- 민감변수: 준식별자를 제외한 나머지 변수

민감변수(명목형)

\[ d_i \times I(X_i=Y_t) > \sqrt{p_i(1-p_i)}, i=1,2,\dots,n\]

민감변수(연속형): k-means를 이용해 값을 군집화하고 부등식 확인

\[d'_i \times |X_i - Y_i| < 1.48 \times MAD , i=1,2,\dots,n \]

MAD:중위절대편차

원본자료의 i번째 관측치에서 위 부등식을 만족하는 민감벼눗의 비율이 5% 이상이면 1, 그렇지 않으면 0 \(\to\) 지시함수 \(R_i\)

- 신원 노출 위험도

\[ \dfrac{1}{n} \sum_{i=1}^{n}(\dfrac{1}{f_i}\times I_i \times R_i)\]

작을수록 신원 추출 가능성이 작아짐

구현 시간이 오래 걸림
준식별자와 민감 변수로 구분시 명확한 기준이 없음

속성 노출 위험도

공격자가 개인의 신원을 식별할 수는 없지만 특정 민감한 변수의 속성을 추론할 수 있을때 발생
완전 재현자료여도 속성 노출 위험도 항상 존재

- CAP(correct attribution probability)

공격자가 원본자료의 일부 변수(K:key bariables)를 가지고 있고 하나의 특정 변수의 값에 대하여 알고자 하는(T:target variable) 상황에서 계산
\(K\)와 \(T\) 모두 범주형이어야 계산 가능, 연속형 변수는 K-MEANS를 실시하여..

α-정밀도, β-재현율, 독창성 점수

원본자료와 재현자료의 토대를 추정
테이블, 이미지 등 다양한 형태 데이터 져핸에 대한 평가 지표
잠재공간으로 임베딩시 hyperparameter설정에 따라 결과가 다르게 나옴

- α정밀도

재현자료가 원본자료를 얼마나 충실하게 재현하는가
재현자료 유용성 측정지표
α정밀도가 높은 재현자료는 현실성이 높은 관측치를 포함

원본 데이터 \(D_O\)의 확률분포의 서포트 안에서 α 만큼의 확률을 가지는 가장 작은 토대(α-support)를 \(S_0^α\)

\[ α정밀도:P_α\] \[ P_α := Pr(x_s \in S_0^α), for α \in [0,1]\]

\[재현자료가 원본자료의 분포에서 나타날 가능성\]

- β재현율

재현자료가 원본자료의 다양성을 충분히 반영하는가
재현자료 유용성 측정지표
β재현율이 낮은 재현자료는 원본자료의 일부만을 반복적으로 재현

\[β재현율: R_β\] \[ R_β := Pr(x_o \in S_0^β), for β \in [0,1]\]

\[재현자료의 분포가 원본자료를 얼마나 포함하지는지\]

- 독창섬점수 - 재현자료를 얼마나 원본자료에 존재하지 않는 새로운 관측치들을 만들어 내는가 - 정보노출의 위험성 측정 지표 - 재현자료가 원본자료를 과적합하여 그대로 사용하고 있는지?